在臂分布的标准假设下广泛研究了随机多臂强盗问题(例如,用已知的支持,指数家庭等)。这些假设适用于许多现实世界问题,但有时他们需要知识(例如,在尾部上),从业者可能无法精确访问,提高强盗算法的鲁棒性的问题,以模拟拼盘。在本文中,我们研究了一种通用的Dirichlet采样(DS)算法,基于通过重新采样的武器观测和数据相关的探索奖励计算的经验指标的成对比较。我们表明,当该策略的界限和对数后悔具有轻度分量度条件的半界分布时,这种策略的不同变体达到了可证明的最佳遗憾。我们还表明,一项简单的调整在大类无界分布方面实现了坚固性,其成本比对数渐近的遗憾略差。我们终于提供了数字实验,展示了合成农业数据的决策问题中DS的优点。
translated by 谷歌翻译